AI产业链地图·知识库 Continuous Batching · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/Continuous Batching

更新 2026·06·17

概念技术 / 术语

Continuous Batching

连续批处理 · 动态批处理 · In-Flight Batching · Dynamic Batching

传统静态批处理（Static Batching）需要等待批内所有请求完成才能进入下一批，导致 GPU 长时间空闲。Continuous Batching 在每一步生成 token 后动态调整批组成（短请求完成立即退出，新请求随时加入）。

Continuous Batchin CONCEPT · 概念

首次提出: 2022
关键参与方: [[vLLM]] · [[NVIDIA TensorRT-LLM]]
反向引用: 10 处 · 来自 7 页

归属 LLM推理吞吐量优化第四层

Continuous Batching

一种动态批处理技术，允许不同长度的推理请求实时拼批进入 GPU，吞吐量较静态批处理提升 10-20×。

定义

传统静态批处理（Static Batching）需要等待批内所有请求完成才能进入下一批，导致 GPU 长时间空闲。Continuous Batching 在每一步生成 token 后动态调整批组成（短请求完成立即退出，新请求随时加入）。

解决的核心问题

LLM 推理中，请求生成长度差异巨大（短的几十 token，长的几千 token）：

静态批处理时长被最长请求决定 → 短请求"陪跑" GPU 浪费
不同请求 prefill / decode 阶段算力需求差异大
实际生产负载是高频小请求 + 偶发长请求混合

Continuous Batching 实现：

按 step（生成 1 个 token）粒度调度
每 step 结束后，已完成请求立即返回，等待中的新请求立即加入
GPU 利用率从 30% 提升至 80%+

主要玩家

vLLM（首先在工业级开源引擎中实现）
NVIDIA TensorRT-LLM 称为 In-Flight Batching
Hugging Face TGI（Text Generation Inference）
硅基流动自研引擎

在 AI 产业链中的角色

推理成本下降的核心技术驱动力：与 PagedAttention 共同支撑 LLM 推理吞吐量 10-20× 提升
推理引擎事实标配：所有主流 LLM 推理引擎都实现了 Continuous Batching
MaaS 商业模式的基石：让按 token 计费的推理服务有了可行的单位经济性

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 10

按引用量 ↓

… - 后续被 [[NVIDIA TensorRT-LLM]]、[[SGLang]]、[[硅基流动]] 自研引擎等主流推理引擎借鉴 ## 在 AI 产业链中的角色 - **推理成本下降的核心技术驱动力之一**：与 Continuous Batching 共同支撑 LLM 推理吞吐量 10-20× 提升 - **vLLM 的标志性技术**：让 vLLM 在 2023-2024 迅速成为开源 LLM 推理引擎事实标准 …

… *2024** TensorRT-LLM、SGLang 等推理引擎陆续实现类似机制 - **2025** Prefix Caching、跨请求共享等优化进一步演进 ## 相关概念 - [[KV-Cache]] - [[vLLM]] - Continuous Batching- [[投机解码]] - [[FlashAttention]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **[[PagedAttention]]**：将操作系统的虚拟内存分页思想引入 KV-Cache 管理，解决 LLM 推理中显存碎片化与浪费的核心痛点 - **Continuous Batching**：动态批处理，请求级别拼批，吞吐量较静态批处理 +10-20× - **Tensor Parallelism**：原生支持多 GPU 张量并行 - **量化支持**：[[GPTQ]] / [[AWQ]] / [[GGUF]] / FP8 …

… - **被云厂商和独立推理服务商广泛采用**：开源社区贡献者覆盖几乎所有主流推理服务平台 ## 技术影响 - DeepSeek-R1 等开源大模型部署的默认推理引擎 - 推动 Continuous Batching / [[投机解码]] / [[FlashAttention]] 等技术进入工业级实践 - 反向影响 [[NVIDIA TensorRT-LLM]] 的开发优先级 …

查看原文 →

… - **Multi-Token Prediction (MTP)**：[[DeepSeek]] V3 / R1 自带 ## 在 AI 产业链中的角色 - **推理成本下降的核心技术驱动力**：与 [[PagedAttention]]、Continuous Batching 并列 2024-25 LLM 推理三大革新 - **延迟敏感场景必备**：对话、Agent、代码生成等场景延迟降低 2-4× - **2025 已成主流推理引擎标配** …

… - **2024-12** DeepSeek V3 引入 Multi-Token Prediction ## 相关概念 - [[PagedAttention]] - Continuous Batching- [[FlashAttention]] - [[KV-Cache]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… 2. **推理优化**：[[量化]]（GPTQ / AWQ / [[GGUF]]）/ [[推测性解码]] / [[KV 缓存]] / [[Flash Attention]] / 连续批处理3. **RAG 技术栈**：[[向量数据库]] / [[Chunking]] / [[混合检索]] / [[Reranking]] / [[GraphRAG]] …

查看原文 →

… 缩**：[[INT4 量化]] / [[GPTQ]] / [[AWQ]] / [[GGUF]] / [[OneBit]] / [[知识蒸馏]] / [[模型剪枝]] 2. **推理引擎核心算法**：[[PagedAttention]] / Continuous Batching / [[投机解码]] / [[FlashAttention]] / [[KV-Cache]] 3. **模型服务化框架**：[[NVIDIA Triton Inference Server]] / [[vLLM]] / [[Ray]] / …

查看原文 →

… Attention、Prefix Caching、Disaggregated Serving、MLA 等 - **决定推理服务单卡并发数**：直接决定 MaaS 单位经济性 ## 相关概念 - [[PagedAttention]] - Continuous Batching- [[FlashAttention]] - [[投机解码]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **2025** 适配 Blackwell GPU 架构 ## 相关概念 - [[NVIDIA TensorRT-LLM]] - [[vLLM]] - [[MaaS]] - Continuous Batching∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →